36氪
04-10 20:20
百度伐谋Agent 2.0再次登顶MLE-Bench
📌 一句话:百度AI Agent“伐谋2.0”再次斩获全球最权威评测榜首,标志着中国AI Agent正式领跑国际赛道。
💡 3个要点
评测权威性:MLE-Bench是AI Agent领域公认的“高考”,测试模型解决复杂软件工程问题的能力
技术突破性:伐谋2.0在代码生成、调试优化、任务规划等核心指标上全面超越GPT-4等国际主流模型
商业价值:这意味着企业可直接用百度AI Agent替代部分程序员工作,成本效率将大幅提升
💭 点评
百度这次登顶不是偶然。不同于某些厂商靠“刷榜”博眼球,MLE-Bench测试的是真实工程能力,伐谋2.0能连续夺冠说明技术底子硬。更值得玩味的是,这背后是百度多年深耕AI基础设施的集中爆发——从芯片到框架到模型的全链路布局,终于开始显现协同效应。可以预见,接下来AI Agent赛道将进入“中国时间”,国际竞争格局正在被改写。
📖 原文链接
点击阅读原文 →